AI资讯新闻榜单内容搜索-claude 3

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: claude 3
312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7

312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7

312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7

自 Anthropic 推出 Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI 也相继推出 Operator,用强化学习(RL)算法把电脑智能体的能力推向新高,引发全球范围广泛关注。

来自主题: AI技术研报
8429 点击    2025-05-25 15:11
可靠的Agent该用哪个模型,LLM多轮对话中的「迷失」现象 |微软最新

可靠的Agent该用哪个模型,LLM多轮对话中的「迷失」现象 |微软最新

可靠的Agent该用哪个模型,LLM多轮对话中的「迷失」现象 |微软最新

微软最近与Salesforce Research联合发布了一篇名为《Lost in Conversation》的研究,说当前最先进的LLM在多轮对话中表现会大幅下降,平均降幅高达39%。这一现象被称为对话中的"迷失"。文章分析了各大模型(包括Claude 3.7-Sonnet、Deepseek-R1等)在多轮对话中的表现差异,还解析了模型"迷失"的根本原因及有效缓解策略。

来自主题: AI技术研报
8396 点击    2025-05-20 10:16
1/8成本比肩Claude 3.7,Mistral Medium 3来了

1/8成本比肩Claude 3.7,Mistral Medium 3来了

1/8成本比肩Claude 3.7,Mistral Medium 3来了

用1/8成本比肩Claude 3.7,刚刚,“欧洲OpenAI”Mistral AI发布多模态新模型。

来自主题: AI资讯
10825 点击    2025-05-08 12:03
Gemini 2.5 Pro登顶三冠王!AI最强编程屠榜,全面碾压Claude 3.7

Gemini 2.5 Pro登顶三冠王!AI最强编程屠榜,全面碾压Claude 3.7

Gemini 2.5 Pro登顶三冠王!AI最强编程屠榜,全面碾压Claude 3.7

谷歌Gemini 2.5 Pro(I/O版)横空出世,强势登顶LMAreana,斩获文本、视觉、编码三连冠,甚至编程能力全面碾压Claude 3.7,地表最强编码模型诞生。

来自主题: AI资讯
8590 点击    2025-05-07 14:32
AI对战略咨询公司的影响,及其应对(以麦肯锡、BCG 为例)

AI对战略咨询公司的影响,及其应对(以麦肯锡、BCG 为例)

AI对战略咨询公司的影响,及其应对(以麦肯锡、BCG 为例)

自 OpenAI 发布 chatgpt 以来,业内除了技术公司、媒体公司比较关注其进展以外,还有一个行业比较关注,那就是战略咨询行业。尤其是最近 GPT-4o、Claude 3.7 Sonnet 为代表的最新大模型在数据分析、内容生成、编码和复杂推理方面展现出强大能力,与战略咨询工作的核心环节高度相关 。

来自主题: AI资讯
9798 点击    2025-04-28 08:58
连Claude 3.5都败下阵来,大语言模型能否定位软件服务的故障根因?

连Claude 3.5都败下阵来,大语言模型能否定位软件服务的故障根因?

连Claude 3.5都败下阵来,大语言模型能否定位软件服务的故障根因?

论文的第一作者是香港中文大学(深圳)数据科学学院三年级博士生徐俊杰龙,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和微软主管研究员何世林博士。贺品嘉老师团队的研究重点是软件工程、LLM for DevOps、大模型安全。

来自主题: AI技术研报
7218 点击    2025-04-22 17:58
谷歌首款混合推理Gemini 2.5登场,成本暴降600%!思考模式一开,直追o4-mini

谷歌首款混合推理Gemini 2.5登场,成本暴降600%!思考模式一开,直追o4-mini

谷歌首款混合推理Gemini 2.5登场,成本暴降600%!思考模式一开,直追o4-mini

谷歌发布首款混合推理模型Gemini 2.5 Flash,引入了革命性「思考预算」,可灵活控制推理深度,性能一举击败Claude 3.7,比肩o4-mini。而且,关闭思考模式成本直降600%。

来自主题: AI资讯
10505 点击    2025-04-18 10:48
GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

两个月后就号称要淘汰GPT-4.5的GPT-4.1,实力究竟如何?在众多实测中,它的表现的确可圈可点,但却依然打不过Gemini 2.5 Pro和Claude 3.7 Sonnet。那么问题来了,OpenAI为何要发布一个远远落后于谷歌的模型?

来自主题: AI资讯
9332 点击    2025-04-16 10:26
Gemini 2.5编程全球霸榜,谷歌重回AI王座!神秘模型曝光,奥特曼迎战

Gemini 2.5编程全球霸榜,谷歌重回AI王座!神秘模型曝光,奥特曼迎战

Gemini 2.5编程全球霸榜,谷歌重回AI王座!神秘模型曝光,奥特曼迎战

刚刚,Gemini 2.5 Pro编程登顶,6美元性价比碾压Claude 3.7 Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。

来自主题: AI资讯
8540 点击    2025-04-14 19:38